重庆理工大学学报(自然科学) ›› 2019, Vol. 33 ›› Issue (8): 144-148.doi: 10. 3969 /j. issn. 1674-8425(z). 2019. 08. 023

• 信息·计算机 • 上一篇    下一篇

医院网站日志挖掘数据预处理的研究

蒙 华a,苏 静b,李立峰a,翟玉兰a   

  1. 广西医科大学 a. 第一附属医院 计算机管理中心;b. 信息与管理学院 教研科, 南宁 530021
  • 收稿日期:2019-02-25 出版日期:2019-09-27 发布日期:2019-09-27
  • 作者简介:蒙华,女,硕士研究生,工程师,主要从事数据挖掘?医院系统开发研究;通讯作者 苏静,女,硕士研究生,讲师,主要从事数据分析?人工智能等方面研究,E-mail:173387296@ qq. com?
  • 基金资助:
    广西高校科学研究技术项目(KY2015LX045); 广西医科大学青年科学基金资助项目(GXMUYSF201511)

  • Received:2019-02-25 Online:2019-09-27 Published:2019-09-27

摘要: 数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。 采用数据库技术和 Matlab 工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。 实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。

关键词: 医院网站日志挖掘, 数据预处理, 用户识别, 页面聚类, 相似度矩阵

中图分类号: 

  • TP311